TCGA(2022版)转录组数据的下载和初步整理

您所在的位置:网站首页 dir app 下载 TCGA(2022版)转录组数据的下载和初步整理

TCGA(2022版)转录组数据的下载和初步整理

2023-03-27 23:26| 来源: 网络整理| 查看: 265

数据库简介

The Cancer Genome Atlas Program(TCGA,https://www.cancer.gov/ccg/research/genome-sequencing/tcga )即癌症基因组图谱计划,是由美国国家癌症和肿瘤研究所(NCI)和国家人类基因组研究所(NHGRI)于2006年合作建立的癌症研究项目,旨在应用高通量测序技术,以帮助解癌症的分子机制,从而提高提高肿瘤预防、诊断和治疗能力。目前收录了来自20多种组织类型和33种癌症(如表1)的20000多患者临床与测序信息(包括基因表达、miRNA表达、拷贝数变异、DNA甲基化、SNP等)。该项目研究信息全部公开,供研究者免费下载使用。

表1 TCGA数据库癌症类别及其缩写

2022年4月份TCGA数据库完成更新,其数据集整合在GDC Data Portal中,且测序数据由HTSeq格式变为STAR-count文件。

图1 GDC Data Portal(https://portal.gdc.cancer.gov/)主页

如图2所见,新版count文件第1~4行为注释信息,在后续分析和挖掘时需要删去。第1列为gene_id。第2列为gene_name,第4列unstranded即count value。

图2 新版Count文件表达格式 TCGA数据下载的文件类型:

1.组学信息(样本):counts文件(存储单个患者表达数据,需合并整理为表达矩阵) 和json文件(存储样本文件信息,如RNA-seq, miRNA-seq, exon/CNV等)。 2.临床信息(患者):xml文件(存储单个患者的临床信息,需合并整理为临床信息表格,包含患者ID,生存/死亡,分期,性别/种族/年龄,死亡时间等信息)。

TCGA数据下载的方式:

gdc-client, Xena和R packages(如gdcRNAtools,TCGAbiolinks)。其中gdc-client为官方下载工具,建议优先选择。

数据下载

以TCGA-KIRC序列为例,利用gdc-client软件进行转录组及临床数据的下载与初步整理。

一、下载临床信息和表达矩阵 1.下载gdc-client软件

登入网站 https://gdc.cancer.gov/access-data/gdc-data-transfer-tool。选择符合系统的gdc-client软件,下载到工作目录解压。

图3 gdc-client软件下载

2.下载表达数据相关文件

2.1.下载manifest文件 登入网站 https://portal.gdc.cancer.gov/repository。如图4完成数据筛选后下载manifest清单文件。

图4 下载TCGA-KIRC表达数据的步骤

点击Dowload下拉菜单中的Manifest,保存为gdc_manifest_expdata.txt文件到工作目录。该文件用于下载每个样本表达矩阵。

2.2.下载Metadata文件 保存为metadata.cart.json文件至工作目录下。该文件用于TCGA_ID和文件名ID转化。

图5 下载json文件的步骤

3.下载临床数据相关文件

下载manifest文件 登入网站 https://portal.gdc.cancer.gov/repository。点击Manifest,保存为gdc_manifest_clinical.txt文件至工作目录下。该文件用于下载临床信息。

图6 下载TCGA-KIRC临床数据的步骤

4.Rstudio中应用gdc-client下载文件 #### Download via gdc-client library(stringr) ## "stringr"包用于字符串处理 project = "TCGA-KIRC" setwd("D:/TCGA/TCGA-KIRC") ## 设置当前工作目录 if(!dir.exists("clinical"))dir.create("clinical") ##新建文件夹存放需下载的临床文件 if(!dir.exists("expdata"))dir.create("expdata") ##新建文件夹存放需下载的测序文件 dir() ## 列出工作目录下的所有文件 #[1] "clinical" "expdata" "gdc-client.exe" "gdc_manifest_clinical.txt" #[5] "gdc_manifest_expdata.txt" "metadata.cart.json" "step01_prepare_data.Rmd" "TCGA_KIRC.Rproj" command1


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3